12 research outputs found
Funtzio sintaktikoen gold estandarra eskuz etiketatzeko gidalerroak
[EN]In this report we present the tags we use when annotating the gold standard of syntactic functions and the decisions taken during its annotation. The gold standard is a necessary resource to evaluate the rulebased surface syntactic parser (the one based on the Constraint Grammar formalism), and, moreover, it can be useful to develop and evaluate statistical parsers. The tags we are presenting here follow the Constraint Grammar (CG) formalism (Karlsson et al., 1995). In fact, last experiments show that good results have been obtained when parsing with CG (Karlsson et al., 1995; Samuelsson and Voutilainen,1997; Tapanainen and Järvinen, 1997; Bick, 2000).[EU]Txosten honetan funtzio sintaktikoen gold estandarra etiketatzean erabiltzen diren funtzio-etiketak eta horiek aplikatzeko hartutako erabakiak azalduko ditugu. Gold estandarra funtsezkoa dugu erregeletan oinarritutako azaleko analizatzaile sintaktikoa ebaluatzeko eta, halaber, baliagarri izan daiteke analizatzaile estatistikoak garatzeko eta ebaluatzeko ere. Funtzio-etiketa horiek Constraint Grammar(CG) eredua jarraitzen dute (Karlsson et al., 1995). Izan ere, azken urteetan analisi sintaktiko automatikoan emaitza onak lortu dira CG ereduaren aplikazioaren bidez (Karlsson et al., 1995; Samuelsson and Voutilainen, 1997; Tapanainen and Järvinen, 1997; Bick, 2000).
Halaber, testuak anotatzeko lana oso handia dela kontuan izanik, Voutilainen-ek (2012) anotaziorako metodologia erdiautomatikoak proposatzen ditu. Ildo horretatik, etiketatze-lan hori arintze aldera,baliabide erdiautomatikoak ere jorratu ditugu (Arriola et al., 2013), baina geratzen den anbiguotasuna ebazteko (% 25) eskuzko etiketatzea egingo da. Hain zuzen ere, txosten honetan eskuzko lan hori aurrera eramateko gidalerroak definitu ditugu. Gidalerroetan analisietan erabiltzen diren laburtzapenak jasotzeaz gain, funtzio-etiketa horiek esleitzeko gidalerroak zehaztuko ditugu
Construcción de un Gold Standard para la Sintaxis Superficial del Euskera
En este artÃculo presentamos el proceso de construcción de SF-EPEC, un corpus de 300.000 palabras, sintácticamente anotado, que pretende ser un Gold Standard para el procesamiento sintáctico superficial del euskera. En primer lugar, describimos el conjunto de etiquetas diseñado para este propósito; siendo el euskera una lengua aglutinante, en ocasiones hemos tenido que crear etiquetas sintácticas compuestas. Asimismo, se detallan las distintas fases en la construcción de SF-EPEC.In this paper, we present the process in the construction of SF-EPEC, a 300,000-word corpus syntactically annotated that aims to be a Gold Standard for the surface syntactic processing of Basque. First, the tagset designed for this purpose is described; being Basque an agglutinative language, sometimes complex syntactic tags were needed. We also account for the different phases in the construction of SF-EPEC.PROSA-MED: Procesamiento semántico textual avanzado para la detección de diagnósticos, procedimientos, otros conceptos y sus relaciones en informes Médicos (TIN2016-77820-C3-1-R)
Construcción de un corpus etiquetado sintácticamente para el euskera
El objetivo de este trabajo es la construcción de un corpus anotado sintácticamente
para el euskera. En esta comunicación presentaremos, en primer lugar, las bases sobre las que se
asienta nuestro etiquetado. Tras examinar diversas opciones se optó por el esquema presentado
por (Carrol et al., 1998). Este esquema sigue los estándares EAGLES y se basa en la idea de
añadir a cada frase del corpus una serie de relaciones gramaticales que especifican la
dependencia existente entre el núcleo y sus modificadores. Una vez presentado el formalismo de
etiquetado, se expondrán los problemas que hemos encontrado en nuestra tarea y las decisiones
tomadas. Seguidamente se describirá un ejemplo concreto en el que se muestra la aplicación de
dicho esquema sobre un corpus inicial. Finalmente, presentaremos las conclusiones sobre la
idoneidad del esquema al euskera y trabajo futuro.The aim of this work is the construction of a syntactically annotated treebank for
Basque. In this paper we present first, the basis of the annotation. After examining several
options we chose the scheme presented in (Carrol et al., 1998). It follows the EAGLES
standards and it is based on the idea of adding to each sentence in the corpus a series of
grammatical relations specifying the dependencies between modifiers and their nucleus. After
the formalism has been presented, we will describe the problems we have found and the
decisions we have taken to solve them. Next we present an example showing the application of
the scheme to an initial corpus. Finally, we present the main conclusions about the applicability
to Basque and future work.Este trabajo se ha realizado dentro del proyecto
"Construcción de una base de datos de árboles
sintácticos y semánticos", subvencionado por el
Ministerio de Educación y Ciencia (PROFIT:
FIT-150500-2002-244)
Euskal Hiztegia-ren azterketa eta egituratzea ezagutza lexikalaren eskuratze automatikoari begira: aditz-adibideen analisia murriztapen-gramatika baliatuz, azpikategorizazioaren bidean
Tesi-proiektu honek bi motibazio nagusi izan ditu: (1) Euskal Hiztegia (EH) berrerabiltzea, Euskararen Datu-Base Lexikalaren (EDBL) aberasketarako eta (2) aditzen argumentu-egitura lantzen laguntzeko bideak eskaintzea.Lehendabizi, EHren egitura definitzen duen gramatika zehaztu dugu eta hiztegia bera analizatu. Lan horiek gauzatzean lexikografoak hiztegia egiterakoan buruan duen gramatika azaleratu dugu. Eta, gainera, hiztegiko artikuluak eta artikulu bakoitzaren atalak egituratzeko testu-prozesadore batez baliatzeak dakartzan gabeziak eta akatsak nabarmendu ditugu. Horrek guztiak erakusten du formalizazio zorrotzago baten premia nabaria dela. @@ Horrez gain, hiztegia TEIko (Text Encoding Initiative) gidalerroen arabera kodetu dugu. Hau da, formatu estandar batez baliatu gara hiztegia errepresentatzeko. Eta, hiztegigintzari begira, aurkeztu dugun TEI ekimeneko gidalerroez baliatzea izan daiteke hiztegien kontsistentzia ziurtatzeko jarrai daitekeen bideetariko bat. Adibidez, TEIko gidalerroak, egokiak dira oso artikuluak idazten diharduen lexikografoarentzat, datuen zuzentasuna, osotasuna eta abar egiaztatzearen aldetik. @@ Bestalde, TEIra egokitze horrek hiztegiaren berrerabilgarritasunari irekitzen dizkio ateak. Hau da, batetik EDBLren aberasketarako informazioa jartzen du eskuragarri, eta, bestetik, EH aztergai edo lantresna duen edonorentzat baliagarri izango da. Aipatu gabe hiztegiaren etorkizuneko eguneratzeetarako eskaintzen dituen abantailak. @@ Hasieran aipatu dugun analisi horri esker, interesgarri deritzogun informazio-eremuak aztertu ahal izango ditugu ordenagailu bidez, gure kasuan aditzen adibideak izan ditugu aztergai. Azterketa horren helburu nagusia adibide horietan aditz bakoitzaren inguruan azaltzen diren sintagmak eta aditz-kateak jasotzea izan da. Eta helburu horrek eraman gaitu adibideen azaleko analisi sintaktikoa egitera. @@ EHko aditzen adibideak analizatu ditugu euskararako landu dugun Murriztapengramatika baliatuz. Adibideok analizatzeko euskararen sintaxiaren parte bat konputazionalki deskribatu eta erabili dugu. Eta ondorioz, sailkapen bat (etorkizuneko azterketa sakonagoen euskarri nahi litzatekeena) erdietsi dugu, aditzen argumentuegiturari erreparatuz. @@ Landu dugun sintaxiaren partea azaleko sintaxiaren arloan kokatzen da. Azaleko sintaxiak berebiziko garrantzia du adibideetatik jaso den informazioaren zuzentasunerako. Izan ere, aditz bakoitzaren argumentu posible gisa jasotzen direnak, azaleko sintaxiaren bidez ezagutzen diren sintagmak eta aditz-kateak baititugu. @@ Ez dugu zalantzarik esateko aditzei buruzko azpikategorizazioa zehazteak sintagma edota aditz-kateen analisitik esaldi konplexuagoen analisira jauzia egiteko aukera emango duela. @@ Uste dugu eginiko azaleko analisia baliagarria dela azpikategorizazioaren alorra lantzen laguntzeko, hain zuzen ere, proiektu honen bigarren motibazio nagusia izan denari erantzunez. Analisiaren emaitza errepresentatzeko SGML (Standard Generalized Markup Language) baliatu dugu analisi sintaktikoa errepresentatzeko dokumentu-mota definizioa (DTD, Document Type Definition) zehaztuz. Errepresentaziomodu horrek analisia testu huts izatetik errepresentazio aberatsago batera moldatzean, ustiapena errazteko bideak irekitzen ditu. Ustiapen hori burutzeko moduetariko bat, diseinatu eta inplementatu dugun galdeketa-sistema dugu. Galdeketa-sistemaren bidez, analisietatik eskuratu nahi dugun informazioa jasotzeko eta ikerketa errazteko bidea landu dugu. Horren bidez defini daitezkeen galderek analisiaren emaitzak aztertzen lagundu digute, lorturiko emaitzak modu desberdinetara antola daitezkeela. @@ Azkenik, egindako lanen ondorioz hiru ekarpen nagusi egin ditugula azpimarratu nahi genuke: @@ 1. Hiztegiaren kodeketarako formatu estandar batez baliatuz, EH TEIko gidalerroen arabera kodetzea. @@ 2. Azaleko sintaxiaren alorra urratzea: murriztapen-gramatika landu eta EHko adibideen gainean aplikatu dugu. @@ 3. Aditzen argumentu-egitura lantzen laguntzeko metodologia jorratzea, emaitza gisa hiztegiko aditzen azaleko patroiak erdietsi
Reusability of the Basque Dependency Treebank for building the Gold Standard of Constraint Grammar Surface Syntax
El objetivo del trabajo consiste en reutilizar el Treebank de dependencias EPECDEP (BDT) para construir el gold standard de la sintaxis superficial del euskera. El paso básico consiste en el estudio comparativo de los dos formalismos aplicados sobre el mismo corpus: el formalismo de la Gramática de Restricciones (Constraint Grammar, CG) y la Gramática de Dependencias (Dependency Grammar, DP). Como resultado de dicho estudio hemos establecido los criterios lingüÃsticos necesarios para derivar la funciones sintácticas en estilo CG. Dichos criterios han sido implementados y evaluados, asà en el 75% de los casos se derivan automáticamente las funciones sintácticas para construir el gold standard.The aim of the work is to profit the existing dependency Treebank EPEC-DEP (BDT) in order to build the gold standard for the surface syntax of Basque. As basic step, we make a comparative study of both formalisms, the Constraint Grammar formalism (CG) and the Dependency Grammar (DP) that have been applied on the corpus. As a result, we establish some criteria that will serve us to derive automatically the CG style syntactic function tags. Those criteria were implemented and evaluated; as a result, in the 75 % of the cases we are able to derive the CG style syntactic function tags for building the gold standard.Este trabajo ha sido financiado por el Gobierno Vasco (IT344-10)
Análisis de secuencias N-N: un enfoque con gramáticas basadas en reglas
El artÃculo presenta el trabajo para mejorar el parser superficial del euskara. El
objetivo práctico del mismo, consiste en enriquecer dicho parser con la información lingüÃstica
pertinente para analizar secuencias que contienen un elemento nominal que instancia por medio
de diversas estructuras sintácticas algún tipo de cuantificación de un segundo N.This paper reports on work in progress to improve shallow parsing for Basque. The
practical goal of our work is to enrich the information of the shallow parser with linguistic
information for analyzing sequences containing an N that instantiates a kind of quantification of
the other nominal constituent, by means of some different syntactical structures.This research is supported by grants no. HUM2004-05658-C02-01, UPV 1/UPV 00113.310-H-15921/2004
and EHU06/16, HUM2004-05658-C02-01 and EHU06/16. Besides, acknowledgments to the support of the
Government of the Basque Country to IXA group
Análisis automático del diccionario Hauta-Lanerako Euskal Hiztegia
El propósito de la siguiente comunicación es el de dar a conocer la labor desarrollada en el proceso de análisis del Hauta-Lanerako Euskal Hiztegia (HLEH) [Sarasola 84/95]. Para ello se describirán las caracterÃsticas más importantes del mismo, para pasar a continuación a detallar las fases concernientes a la preparación del diccionario fuente en MRD y la confección de la gramática que refleje la estructura del mismo
A corpus based morphological disambiguation tool for Basque
This paper presents the methodology followed in the construction of a surface-based morphosyntactic parsing grammar as well as the results obtained. It is based on the Constraint Grammar formalism which we find suitable for our project of analysing unrestricted texts. Besides, we will present a description of the main types of morphosyntactic ambiguity that we have identified for Basque and the disambiguation rules designed for their treatment. This work is the first step in the computational treatment of syntax.This work is supported by a grant of the Basque Government
Extracción de relaciones semánticas mediante una gramática de restricciones
Este artÃculo da cuenta de los primeros
resultados de un proyecto destinado a
extraer relaciones semánticas de las
definiciones del diccionario monolingüe en
euskara Euskal Hiztegia. La técnica para
extraer dichas relaciones utiliza el
mecanismo de mappings de las gramáticas
de restricciones, que se apoyan en la
información morfosintáctica ya provista por
el analizador morfológico MORFEUS. Se
presentan los resultados referentes a la
extracción de las relaciones de sinonimia e
hiperonimia, en la que se consigue etiquetar
el 85% de las definiciones de los
sustantivos. Cubrimos el 91,3% de las
definiciones con genus/sinónimo con un
error en la extracción del 5%, aunque el
98,9% de las definiciones etiquetadas
tienen al menos un genus/sinónimo
correcto. Los resultados obtenidos, asÃ
como el pequeño esfuerzo necesario, nos
indican que es factible extraer relaciones
semánticas a partir de la información
morfosintáctica proporcionada en un
tiempo razonable, ya sea para sustantivos,
verbos o adjetivos.Este trabajo ha recibido ayudas del CYCIT
(TIC96-1243-C03-02 proyecto ITEM) y de la UPV
(141.226-TA073/96)